准确的面部标志是许多与人面孔有关的任务的重要先决条件。在本文中,根据级联变压器提出了精确的面部标志性检测器。我们将面部标志性检测作为坐标回归任务,以便可以端对端训练该模型。通过在变压器中的自我注意力,我们的模型可以固有地利用地标之间的结构化关系,这将受益于在挑战性条件(例如大姿势和遮挡)下具有里程碑意义的检测。在级联精炼期间,我们的模型能够根据可变形的注意机制提取目标地标周围的最相关图像特征,以进行坐标预测,从而带来更准确的对齐。此外,我们提出了一个新颖的解码器,可以同时完善图像特征和地标性位置。随着参数增加,检测性能进一步提高。我们的模型在几个标准的面部标准检测基准上实现了新的最新性能,并在跨数据库评估中显示出良好的概括能力。
translated by 谷歌翻译
语言表示建模的最新进展广泛影响了密集检索模型的设计。特别是,许多高性能的密集检索模型使用BERT评估查询和文档的表示形式,并随后应用基于余弦相似的评分来确定相关性。然而,已知BERT表示遵循狭窄的锥形的各向异性分布,对于基于余弦相似的评分,这种各向异性分布可能是不希望的。在这项工作中,我们首先表明基于伯特的DR还遵循各向异性分布。为了解决这个问题,我们介绍了无监督的后处理方法,使流动和美白归一化,并开发了令牌方法,除了将后处理方法应用于密集的检索模型的表示形式外,还针对序列方法。我们表明,所提出的方法可以有效地增强各向同性的表示形式,然后我们与Colbert和Repbert进行实验,以表明文件重新排列的性能(NDCG 10)可以改善5.17 \%$ \ sim $ 8.09 \ sim $ 8.09 \ Colbert的%和6.88 \%$ \ sim $ 22.81 \%的Repbert。为了检查各向同性表示对改善DR模型的鲁棒性的潜力,我们研究了测试数据集与培训数据集不同的分数外任务。结果表明,各向同性表示可以达到普遍改善的性能。例如,当训练数据集为MS-Marco并且测试数据集为鲁棒04时,各向同性后处理可以提高基线性能高达24.98 \%。此外,我们表明,使用过分分布数据集训练的各向同性模型甚至可以胜过通过分布数据集训练的基线模型。
translated by 谷歌翻译
基于内核的量子分类器是用于复杂数据的超线化分类的最有趣,最强大的量子机学习技术,可以在浅深度量子电路(例如交换测试分类器)中轻松实现。出乎意料的是,通过引入差异方案,可以将支持向量机固有而明确地实现,以将SVM理论的二次优化问题映射到量子古典的变分优化问题。该方案使用参数化的量子电路(PQC)实现,以创建一个不均匀的权重向量,以索引量子位,可以在线性时间内评估训练损失和分类得分。我们训练该变量量子近似支持向量机(VQASVM)的经典参数,该参数可以转移到其他VQASVM决策推理电路的许多副本中,以分类新查询数据。我们的VQASVM算法对基于云的量子计算机的玩具示例数据集进行了实验,以进行可行性评估,并进行了数值研究以评估其在标准的IRIS花朵数据集上的性能。虹膜数据分类的准确性达到98.8%。
translated by 谷歌翻译
量子神经网络在嘈杂的中间量子时代的广泛应用方面有希望。因此,对自动量子神经架构搜索的需求不断增长。我们通过设计高斯工艺的贝叶斯优化的量子电路指标来应对这一挑战。为了实现这一目标,我们提出了一个新的量子门距离,该距离距离,以每个量子状态的行动为特征,并就其几何特性提供理论观点。我们的方法极大地超过了三个经验量子机学习问题的基准,包括培训量子生成的对抗网络,在MaxCut问题中求解组合优化以及模拟量子傅立叶变换。我们的方法可以扩展以表征各种量子机学习模型的行为。
translated by 谷歌翻译
实时视频细分是许多实际应用程序(例如自动驾驶和机器人控制)的关键任务。由于最新的语义细分模型尽管表现令人印象深刻,但对于实时应用来说通常太重了,因此研究人员提出了具有速度准确性权衡的轻量级体系结构,以降低准确性为代价实现实时速度。在本文中,我们提出了一个新颖的框架,通过利用视频中的时间位置来加快使用跳过连接进行实时视觉任务的架构。具体而言,在每个帧的到来时,我们将特征从上一个帧转换为在特定的空间箱中重复使用它们。然后,我们在当前帧区域上对骨干网络进行部分计算,以捕获当前帧和上一个帧之间的时间差异。这是通过使用门控机制动态掉出残留块来完成的,该机制决定哪些基于框架间失真掉落。我们在具有多个骨干网络的视频语义分割基准上验证了我们的时空掩码发生器(STMG),并证明我们的方法在很大程度上可以随着准确性的最小损失而加快推断。
translated by 谷歌翻译
为了开发直肠癌的自动化工作流程,三维形成式放射治疗计划,结合了深度学习(DL)孔径预测和前向规划算法。我们设计了一种算法来自动化临床工作流程,以使用现场场地进行计划。对555名患者进行了训练,验证和测试DL模型,以自动生成一级和增强场的光圈形状。网络输入是数字重建的X射线照相,总肿瘤体积(GTV)和Nodal GTV。一名医师以5分制(> 3个可以接受)为20名患者的每个孔径为每个孔径评分。然后开发了一种计划算法,以使用楔形和子场的组合创建均匀剂量。该算法迭代识别热点卷,创建子字段并在没有用户干预的情况下优化光束重量。使用具有不同设置的临床光圈对20例患者进行了测试,并由医生评分结果计划(4例计划/患者)。端到端的工作流程通过医生对39名使用DL生成的孔径和计划算法进行了测试和评分。预测的孔的骰子得分分别为0.95、0.94和0.90,分别为侧面,外侧和升压场。 100%,95%和87.5%的后侧,外侧和升压孔分别为临床上可接受。在85%和50%的患者中,楔形计划和非界定计划在临床上是可以接受的。最终计划的热点剂量百分比从121%($ \ $ 14%)降低到处方剂量的109%($ \ pm $ 5%)。自动生成的光圈和优化现场计划的综合端到端工作流程为38/39(97%)的患者提供了可接受的计划。我们已经成功地自动化了临床工作流程,以为我们的机构生成放射疗法计划。
translated by 谷歌翻译
我们提出了一个深层神经网络,用于从不受约束的肖像图像中删除不良阴影特征,从而恢复基础纹理。我们的培训计划纳入了三种正则化策略:蒙面损失,以强调高频阴影特征;软阴影损失,改善了对照明微妙变化的敏感性;和阴影偏移估计,以监督阴影和纹理的分离。与最先进的方法相比,我们的方法表明了质量和概括的改善。我们进一步展示了我们的愉悦方法如何增强光敏的计算机视觉任务任务(例如面部重新放置和语义解析)的性能,从而使它们能够处理极端的照明条件。
translated by 谷歌翻译
最近基于学习的无损图像压缩方法在子图像单元中编码图像,并实现传统的非学习算法的可比性。然而,这些方法不考虑高频区域中的性能下降,给出低频区域的相同考虑。在本文中,我们提出了一种新的无损图像压缩方法,其以粗略的方式进行编码,以不同地分离和处理低频区域。我们最初压缩低频分量,然后将它们用作额外的输入来编码剩余的高频区域。在这种情况下,低频分量在此情况下发挥作用,这导致高频区域的估计改善。此外,我们设计频率分解过程,以适应颜色通道,空间位置和图像特征。结果,我们的方法导出了低/高频分量的图像特异性最佳比率。实验表明,该方法实现了基准高分辨率数据集的最先进的性能。
translated by 谷歌翻译
压缩已成为必不可少的深度学习研究主题之一,特别是对于具有有限的计算能力和存储容量的边缘设备。在主要压缩技术中,已知通过矩阵分解的低秩压缩具有两个问题。首先,需要广泛的调整。其次,由此产生的压缩性能通常不令人印象深刻。在这项工作中,我们提出了一种低秩压缩方法,该方法利用修改的光束搜索自动等级选择和压缩型培训的修改稳定等级。得到的BSR(波束搜索和稳定等级)算法仅需要调谐所需压缩比的单个封路数据计。 BSR在精度和压缩比权衡曲线方面的性能转出优于先前已知的低秩压缩方法。此外,BSR可以与最先进的结构修剪方法进行或更好地执行。与修剪一样,BSR可以容易地与量化进行额外压缩。
translated by 谷歌翻译
由于获取地面真理深度的难度厘定(360)图像,因此当今昼夜深度数据的质量和数量不足以代表世界各种场景。因此,360深度估算研究完全依赖于监督学习,注定要产生不令人满意的结果。虽然介绍了专注于昼夜平衡图像(EIS)的自我监督的学习方法,但它们通常具有不正确或非独特的解决方案,导致不稳定的性能。在本文中,我们提出了360个单眼深度估计方法,这些方法改善了预先研究的区域。首先,我们介绍了一种自我监督的360深度学习方法,只能利用重力排列的视频,这有可能在训练过程中消除深度数据的需求。其次,我们提出了一种通过组合监督和自我监督学习来实现的联合学习计划。补偿每个学习的弱点,从而导致更准确的深度估计。第三,我们提出了一个非本地融合块,当重建深度时,可以进一步保留由视觉变压器编码的全局信息。通过所提出的方法,我们成功将变压器应用于360深度估计,以至于我们的知识中的最佳,这尚未尝试过。在几个基准测试中,我们的方法实现了对先前作品的重大改进,并建立了最先进的技术。
translated by 谷歌翻译